在非洲使用的2,000多种语言几乎都没有广泛可用的自动语音识别系统,并且所需的数据也仅适用于几种语言。我们已经尝试了两种技术,这些技术可能为非洲语言提供大型词汇识别的途径:多语言建模和自我监督学习。我们收集了可用的开源数据并收集了15种语言的数据,并使用这些技术训练了实验模型。我们的结果表明,汇总多语言端到端模型中可用的少量数据,并预先培训无监督的数据可以帮助提高许多非洲语言的语音识别质量。
translated by 谷歌翻译
在移动设备上的语音模型(在设备个性化)上的个性化是一个活跃的研究领域,但是通常,移动设备比配对的音频文本数据具有更多的仅文本数据。我们探索培训有关仅文本数据的个性化语言模型,该模型在推理期间用于提高该用户的语音识别性能。我们在一个用户群体的Librispeech语料库上进行了实验,并为Gutenberg Project的每个用户提供了个性化的文本数据。我们发布此特定于用户的LibrisPeech(UserLibri)数据集,以帮助未来的个性化研究。LibrisPeech音频转录对分为来自测试清洁数据集的55个用户,另外有52位用户。我们能够降低流媒体和非启动模型中的两个集合中每个用户的平均单词错误率,包括在流式传输时为更难的测试用户组的2.5改进。
translated by 谷歌翻译
联合学习(FL)可从分散的隐私敏感数据中学习,并在Edge客户端进行原始数据的计算。本文介绍了混合FL,其中包含在协调服务器上计算出的附加损失项(同时维护FL的私人数据限制)。有很多好处。例如,可以利用其他数据中心数据从集中式(数据中心)共同学习,并分散(联合)培训数据,并更好地匹配预期的推断数据分布。混合FL还可以将一些密集的计算(例如,将正则化)卸载到服务器中,从而大大减少了通信和客户端计算负载。对于这些和其他混合FL用例,我们提出了三种算法:平行训练,1向梯度转移和2向梯度转移。我们陈述了每种融合界限,并提供适合特定混合FL问题的直觉。最后,我们对三个任务进行了广泛的实验,表明混合FL可以将训练数据融合以达到推理分布上的准确性,并可以将通信和计算开销降低90%以上。我们的实验证实了关于算法在不同的混合FL问题设置下的性能的理论预测。
translated by 谷歌翻译
端到端(E2E)模型通常通过浅融合伴随语言模型(LMS),以提高其整体质量以及对稀有单词的认可。同时,几项先前的作品表明,LMS容易在训练数据中无意中记住稀有或独特的序列。在这项工作中,我们设计了一个框架,用于检测LM培训数据中随机文本序列的记忆(我们称为Canaries),当一个人只有Black-Box(Query)访问LM融合语音识别器,而不是直接访问到达LM融合语音识别器LM。在与变压器LM融合的生产级构象体RNN-T E2E模型中,我们表明可以从300m示例的LM训练数据中检测到单一疾病的金丝雀的记忆。我们还激发了保护隐私的动机,我们还表明,通过示例梯度倾斜的LM培训而没有损害整体质量,这种记忆会大大减少。
translated by 谷歌翻译
最近的工作设计了方法来证明ASR培训中的模型更新可以泄漏计算更新中使用的话语的潜在敏感属性。在这项工作中,我们设计了第一种方法来证明有关培训ASR模型培训数据的信息泄漏。我们设计了噪声遮罩,这是一种填充风格的方法,用于从训练有素的ASR模型中提取培训数据的有针对性部分。我们通过在四个设置中使用用于训练最先进的构象模型的LibrisPeech数据集中提取名称来证明噪声掩蔽的成功。特别是,我们证明我们能够以11.8%的精度从蒙面的训练说话中提取正确的名称,而该模型的时间为55.2%的时间,则可以输出一些名称。此外,我们表明,即使在使用合成音频和部分成绩单的设置中,我们的方法也达到2.5%的正确名称准确性(47.7%的任何名称成功率)。最后,我们设计了单词辍学,这是一种数据增强方法,我们在训练中与多级训练一起使用(MTR),它提供了可比的实用程序作为基线,并通过在四个评估的设置中通过噪声掩盖进行了大大减轻提取。
translated by 谷歌翻译
我们使用实际用户设备上的联合学习训练了一个关键字发现模型,并在部署模型以推断电话时观察到了重大改进。为了补偿在设备培训缓存中缺少的数据域,我们采用了联合联邦中心化培训。为了在没有策划标签的设备上学习,我们根据用户反馈信号制定了置信度过滤策略,用于联合蒸馏。这些技术创建了模型,可在实时A/B实验中显着改善离线评估和用户体验指标的质量指标。
translated by 谷歌翻译
由于服务器客户的通信和设备计算的瓶颈,大多数研究联合学习的研究都集中在小型模型上。在这项工作中,我们利用各种技术来缓解这些瓶颈,以在联合学习的跨设备中训练更大的语言模型。借助部分模型培训,量化,有效的转移学习和沟通效率优化器的系统应用,我们能够培训$ 21 $ M的参数变压器和20.2美元的参数构象异构体,这些构象异构体与类似大小相同或更好的困惑LSTM具有$ \ sim10 \ times $ $较小的客户到服务器通信成本,比文献中常见的较小的LSTMS $ 11 \%$ $ $ $。
translated by 谷歌翻译
我们重新审视使​​用公共数据来改善差异私有(DP)模型培训的隐私/实用权折衷的问题。在这里,公共数据是指没有隐私问题的辅助数据集。我们考虑与私人培训数据相同的分发的公共数据。对于凸损失,我们表明镜子血清的变体提供了与模型的维度($ p $)的人口风险保证。具体地,我们将镜像血液应用于由公共数据生成的丢失作为镜像映射,并使用私有(敏感)数据生成的丢失的DP梯度。为了获得维度独立性,我们需要$ g_q ^ 2 \ leq p $公共数据样本,其中$ g_q $是损失功能各向同性的量度。我们进一步表明,我们的算法具有天然的“噪音稳定性”属性:如果围绕当前迭代公共损失,请以$ V $的方向满足$ \ alpha_v $ -strong凸性,然后使用嘈杂的渐变而不是确切的渐变偏移我们的下一次迭代$ v $ v $比例为$ 1 / alpha_v $(与DP-SGD相比,换档是各向同性的)。在前作品中的类似结果必须使用预处理器矩阵形式的公共数据明确地学习几何图形。我们的方法也适用于非凸损失,因为它不依赖于凸起假设以确保DP保证。我们通过显示线性回归,深度学习基准数据集(Wikitext-2,Cifar-10和Emnist)以及联合学习(StackOverflow)来证明我们的算法的经验效果。我们表明,我们的算法不仅显着改善了传统的DP-SGD和DP-FedAVG,它没有访问公共数据,而且还可以改善DP-SGD和DP-FedAVG对已与公众预先培训的模型数据开始。
translated by 谷歌翻译
通过隐私作为动机,联合学习(FL)是一种越来越多的范式,其中学习在边缘设备上集体进行,每个边缘设备都有一个用户生成的训练示例的高速缓存,该训练示例仍然驻留在本地设备上。这些在用户对其与设备的交互过程中原位收集了这些设备训练示例,因此对至少部分推断数据分布的至少一部分具有高度反射性。然而,分配换档仍然存在;设备上的培训示例可能缺少预期在推理时间遇到的一些数据输入。本文提出了一种方法来减轻这种班次:选择性使用数据中心数据,用FL混合。通过混合分散(联合)和集中(Datacenter)数据,我们可以形成有效的培训数据分布,比推断数据分布更好地匹配,导致更有用的模型,同时仍会遇到FL强加的私人培训数据访问约束。
translated by 谷歌翻译
诸如联合学习之类的分布式学习范例通常涉及通过网络传输模型更新或梯度,从而避免传输私有数据。但是,有关培训数据的敏感信息可以从这种梯度透露。先前的作品已经证明,可以通过某些模型的最后一层(例如,reset)分析标签,或者通过使用匹配[zhu等人]的渐变与当前状态的额外知识,可以与模型输入共同重建。模型。在这项工作中,我们提出了一种方法来发现从最后一层的梯度和标签映射的梯度发现一组训练样本标签。我们的方法适用于多个域的各种模型架构。我们展示了我们在两个领域的模型训练中的效果 - 图像分类和自动语音识别。此外,我们表明,当与我们的方法结合使用时,现有的重建技术可以提高它们的功效。相反,我们证明梯度量化和稀疏可以显着降低攻击的成功。
translated by 谷歌翻译